#confianza uniforme

Más allá de la confianza uniforme en tokens en RL para LLM

CPPO mejora el razonamiento de LLM al reemplazar la confianza uniforme por divergencia de prefijo acumulativa. Mayor estabilidad y precisión.